インフォメーションデザイン論 第8回
この先
認知言語学の視点からの情報デザイン
広告の視点からの情報デザイン(博報堂・白井博志氏)
ユーザインタフェースとインタラクションのデザイン
対話型インタフェースのデザイン(ヤフー・颯々野学氏)
データ視覚化
情報の理解と信頼性
7/27 期末試験
情報の分類と組織化
「分類は知のはじまり」
物事を体系化 → 全体を把握
分類(classification)
分類法・学(taxonomy)
類似性(similarity)
Location(場所)
Alphabet(アルファベット、50音順)
Time(時間)
Category(カテゴリ)
Hierarchy(序列)
分類の演習
なす、新聞、ほうき、キカイダー、鶏、りんご、学生、いす、トマト、コンピュータ、ピラニア、テレビ、掃除機、くじら
自然由来のもの
なす
鶏
りんご
トマト
ピラニア
くじら
人工物
その他
木として分類できる
トップダウン
ボトムアップ
視点・観点
分類は、視点・観点によって異なる
ゲーム
チェス
トランプ
卓球
ゴルフ
違いに分類が交差する
こんな素朴な分類でも…
多角形
三角形
四角形
台形
平行四辺形
長方形
ひし形
正方形?
四角形
言葉、文化との関係
言葉<=>概念
山
平野
丘
フランス
文化
ドイツではトマトは果物
スーパーマーケット
日本での魚の細かい名前
百貨店の売り場
地下:食品、一階:化粧品、二階:洋服、三階:スポーツ用品…
オーバーゾーニング
スキーの売り場:スキー用品、ツアー予約、チェーン、道路地図、健康飲料…
動植物の分類
アリストテレスの動物分類
血液の有無、生殖のタイプ、足の数
17世紀 航海技術の進歩、珍しい動植物
分類学の父
階層的カテゴリ
名前を属名と種名で表す
階層的カテゴリ
界
門
網
目
科
属
種
ウプサラ大学
多くの形質を考慮し、多くを共有するものをグループ化
数量分類学
動物の進化の系統を再現する分類
ダーウィンの「種の起源」後、盛んに研究
化石などでわかることは少数
形態学的、発生学的、細胞学的形質による類型分類
人為分類 vs. 類型分類
人為分類
類型分類
多くを共有するものをグループ化
数量分類学
数量分類学
特徴ベクトル(属性の束)で固体を表現
個体間の類似度=特徴ベクトルの類似度
一致係数、ユークリッド距離、角度
クラスタ分析
類似度の高いものをまとめる
特徴ベクトル
行:個体
列:属性
table:vector
f1 f2 f3 f4 f5 f6
A 0 1 0 0 1 1
B
C
D
E
類似度(一致係数)
クラスター分類
樹形図
古代
中世
数百から2000冊程度
デジタルアーカイブの理事
18世紀
19世紀
図書の分類
図書館の棚のどこに何を置くか
主題の分類を設定
そこへ各図書を対応づける
デューイ、国際、日本など
000 総記
その他に近い?
100 哲学と心理学
200 宗教
300 社会科学
400 言語
500 自然科学と数学
600 技術(応用科学)
700 芸術
700 芸術
その他に相当
710 生活、造園
720 建築学
730 造形美術、彫刻
740 絵画、装飾芸術
750 画法、絵
760 工芸美術、印刷、版画
770 写真術、写真
780 音楽
790 娯楽、園芸
800 文学と修辞学
900 地理学と歴史
40ほどの主題を設定
z 総記
1 知識
2 図書館学
...
医学
器官:眼、胃、血液、骨、…
分科:解剖学、生理学、疾病、衛生、…
絵画
様式:日本画、西洋画、宗教画、…
素材
材料
技法
言葉の分類
語の上位下位、同義関係などを体系的に整理したもの
Roget's Thesaurus (1852)
フリーになってる
一般用語については同義関係が中心、単語の選択の手助け
e.g.
角川語彙新辞典
分類語彙表(国立国語研)
NTT日本語語彙体系
機械学習のため
Longman Language Activator
面白いらしい
専門用語のシソーラス
分野の学問体系を明らかにする
専門用語集+α
文献検索での統制言語
等価関係
優先語、非優先語
階層関係
上位語、下位語
連想関係
e.g.
JSTシソーラス(4万後)
情報検索
文書検索
テキストの特徴ベクトル表現→類似度計算
図書検索
新聞記事検索
電子メール検索
Webページ検索
社内文書検索
World Wide Web, WWW
文章はHTMLで記述、別文書への参照(リンク)を埋め込むことでインターネット上の文書の相互参照を可能とする
ウェブディレクトリ
1994年 Yahoo!
検索エンジン
1994年 WebCrawler, Infoseek, Lycon
1995年 AltaVista, Yahoo!
1998年 Google
検索エンジン=クローラー+全文検索
ハイパーリンクをたどってインデックスを作成
全文検索
索引
文書1
言語、(言語)、コンピュータ、問題、(問題)
文書2
...
...
これを逆さまにする
言語
コンピュータ
…
語の頻度
全文書数 / 語の出現する文書数
言語 問題 検索
インデックスを引いて
高速に
ランキングまでできる
語 × 文書の行列
table:TF.IDF
IF.IDF 文書1 文書2
言語 2 0
コンピュータ
問題
情報
語の類似度
意味が似た語は似たコンテキストで出現 (Firth57)
医者
情報推薦
重要なのは
ユーザーAが商品3を買いそうか
各ユーザーごとに類似度を算出
table:suggestion
商品1 ユーザAとの類似度
ユーザA 5 1 ? 2
ユーザB 1 -0.9
ユーザC 1 -0.3
ユーザD 4 0.9
ユーザE 5 0.7
(4 * 0.9 + 5 * 0.7) / 2 = 3.6
フォークソノミー
folksonomy
folks(民衆) + taxonomy(分類法)
ユーザーによるウェブ上の情報へのタグ付け(分類)
共同作業による分類
タグの検索やタグをつけた人
その人がつけた他のタグを調べることができる
例
はてなブックマーク(ソーシャルブックマーク)
Flickr(写真共有サイト)
ニコニコ動画(動画共有サイト)
まとめ
LATCH: 5つの整理だな
人為分類 vs. 類型分類(類似性)
封筒に入れておく
アクセス頻度の高いものが上に来る